iT邦幫忙

2024 iThome 鐵人賽

DAY 16
0

在異常檢測的情況,很常應用非監督式學習,先來了解它是什麼😣。

非監督式學習(Unsupervised Learning),一種機器學習方法,與監督式學習不同,它不需要對訓練數據進行標記,演算法會自動從未標記的數據中尋找關係結構與模式,而且它的目標不是分類或預測具體結果,而是發現數據中的模式、分佈或異常情況。

跟異常檢測較相關的算法:

  1. 🧤孤立森林(Isolation Forest)
  • 概念:專門設計來進行異常檢測,它的核心理念是,異常點更容易被「隔離」,通過隨機選擇特徵並分割數據,構建多棵隨機的決策樹(在第一週有提到過),異常數據點通常與大多數據不同,它們會在樹的較高層級(較短的路徑)被隔離。
  • 應用:適合處理高維數據集,並且不需要標記數據。
    在檢測網絡流量中的異常模式、金融詐欺、設備故障等方面表現佳。
  • 優勢:運算效率高、能快速檢測出異常點。
  1. 🎒自編碼器(Autoencoder)
  • 概念:它是一種神經網絡,學習壓縮輸入數據(編碼)然後重構原始數據(解碼),在異常檢測中,模型會學習數據的「正常」模式並嘗試重構數據,異常點由於與正常數據分佈不同,重構誤差會較高,可以用來識別異常。

  • 應用:適用於數據較為復雜或難以明確定義異常的情況,如圖片、音頻數據,或者是網絡流量中的異常偵測。

  • 優勢:自編碼器能夠在較複雜的異常檢測中學習數據的深層次特徵,因此比孤立森林更適合處理高度非線性和復雜的數據集。

    https://ithelp.ithome.com.tw/upload/images/20240930/20169441MYHuLtD8Nx.png

    這是一個自編碼器的損失函數,用來衡量輸入數據和重構數據之間的差異,目標是要最小化這個差異,讓自編碼器可以學習有效壓縮和重構數據。

從應用來了解異常檢測的概念:

1.⛑️ DDoS 攻擊防範

DDoS攻擊是一種惡意攻擊,通過大量的虛假流量淹沒系統,導致資源耗盡或無法提供服務,為了有效防範DDoS攻擊,網路流量異常檢測技術能夠及時識別大量異常流量。

  • 「流量」異常檢測:AI/ML的異常檢測模型可以監控網路流量,並學習正常的流量模式,當偵測到異常流量(如短時間內突增的請求、來自同IP地址的過量請求等),系統可以迅速採取防禦措施。
    例如:自動阻止、限流或者持續分析網路流量,並將其與過往的正常流量模式進行比較,如果某個時段內的流量與以往的模式明顯不同,系統會標記為潛在DDoS攻擊。
  1. 👟 內部威脅偵測

內部威脅可能來自擁有合法存取權的內部人員,這些威脅可能是惡意行為(故意洩露數據)或無意的操作失誤。

  • 「行為」異常檢測:可以通過學習人員的正常存取模式(如常見的存取時間、位置、數據類型等),當出現異常行為(如短時間內大量數據訪問、異常的存取位置或存取時間)時,系統會自動發出警報。
  • 應用技術:分析用戶行為記錄(User Behavior Analytics,UBA)以建立正常行為基準,並結合機器學習模型來即時偵測異常,比如:某員工突然頻繁訪問大量敏感數據,或者在非工作時間段進行異常的訪問。

當然異常檢測還在偵測詐騙(如:識別洗錢行為)、醫療生理參數異常檢測等方面有很大的潛力,但這裡只討論跟企業數據保護有關呦 🫵🏻。


上一篇
D15 - 罰寫一週小結
下一篇
D17 - 零信任架構 🥚
系列文
數據隱私:工具和風險30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言